<html>
<head>
  <title>无监督学习</title>
  <basefont face="微软雅黑" size="2" />
  <meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
  <meta name="exporter-version" content="Evernote Windows/307027 (zh-CN, DDL); Windows/6.1.0 (Win32);"/>
  <style>
    body, td {
      font-family: 微软雅黑;
      font-size: 10pt;
    }
  </style>
</head>
<body>
<a name="1017"/>
<h1>无监督学习</h1>

<div>
<span><div style="text-align: center;"><span><font style="font-size: 24pt; color: rgb(28, 51, 135);"><b><span>K-均值聚类算法为未标</span><span style="line-height: 1.45;">注数据分组</span></b></font></span></div><div style="text-align: left;"><div><img src="无监督学习_files/Image.png" type="image/png" data-filename="Image.png"/></div></div><div style="text-align: left;"><div><br/></div></div><div style="text-align: left;"><div><span><font style="font-size: 18pt; color: rgb(28, 51, 135);">使用后处理来提高聚类性能</font></span></div></div><div style="text-align: left;"><div><img src="无监督学习_files/Image [1].png" type="image/png" data-filename="Image.png"/></div></div><div style="text-align: left;"><div><img src="无监督学习_files/Image [2].png" type="image/png" data-filename="Image.png"/></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: center;"><div style="text-align: left;"><span><font style="color: rgb(28, 51, 135); font-size: 18pt;">示例：对地图上的点进行聚类</font></span></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: center;"><font style="font-size: 24pt; color: rgb(28, 51, 135);"><b><span>使用Apriori算</span><span>法进行关联</span><span style="line-height: 1.45;">分析</span></b></font></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><font style="font-size: 18pt; color: rgb(28, 51, 135);">关联分析(发现频繁项集，找到关联规则)</font></div><div style="text-align: left;"><div><img src="无监督学习_files/Image [3].png" type="image/png" data-filename="Image.png"/></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><div><img src="无监督学习_files/Image [4].png" type="image/png" data-filename="Image.png"/></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><font color="#1C3387" style="font-size: 18pt;">频繁的定义：<span style="font-size: 18pt; color: rgb(28, 51, 135);">是支持度和可信度</span></font></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><span>    <span>    </span></span>一个项集的支持度(support)被定义为数据集中包含该项集的记录所<font style="font-size: 12pt; color: rgb(173, 0, 0);"><b>占的比例</b></font>。从图11-1中</div><div style="min-height: 15pt; text-align: left;"><span>可以得到，</span><span>{</span><span>豆奶}</span><span>的支持度为</span><span>4/5</span><span>。而在</span><span>5</span><span>条交易记录中有</span><span>3</span><span>条包含</span><span>{</span><span>豆奶，尿布</span><span>} ,</span> <span>因此</span><span>{</span><span>豆奶，尿</span></div><div style="min-height: 15pt; text-align: left;"><span>布</span><span>}</span><span>的支持度为</span><span>3/5</span><span>。支持度是针对项集来说的，因此可以定义一个最小支持度，而只保留满足最</span></div><div style="text-align: left;"><div><span>小支持度的项集。</span></div></div><div style="text-align: left;"><span>    <span>    <span>可信度或置信度（</span><span>confidence)</span><span>是针对一条诸如</span><span>{</span><span>尿布</span><span>} ^</span> <span>丨葡萄酒</span><span>}</span><span>的关联规则来定义的。这</span></span></span></div><div style="min-height: 15pt; text-align: left;"><span>条规则的可信度被定义为</span><span>“</span><font style="font-size: 12pt; color: rgb(173, 0, 0);"><b><span>支持度</span><span>({</span><span>尿布，葡萄酒</span><span>})/</span><span>支持度</span><span>({</span><span>尿布})</span></b></font><span>”</span><span>。从图</span><span>11-1</span><span>中可以看到，由</span><span style="line-height: 1.45;">于</span><span style="line-height: 1.45;">{</span><span style="line-height: 1.45;">尿布，葡萄酒</span><span style="line-height: 1.45;">}</span><span style="line-height: 1.45;">的支持度为</span><span style="line-height: 1.45;">3/5,</span><span style="line-height: 1.45;">尿布的支持度为</span><span style="line-height: 1.45;">4/5,</span><span style="line-height: 1.45;">所以</span><span style="line-height: 1.45;">“</span><span style="line-height: 1.45;">尿布</span><span style="line-height: 1.45;">—</span> <span style="line-height: 1.45;">葡萄酒</span><span style="line-height: 1.45;">”</span><span style="line-height: 1.45;">的可信度为</span><span style="line-height: 1.45;">3/4=0.75</span><span style="line-height: 1.45;">。</span><span style="line-height: 1.45;">这意味着对于包含</span><span style="line-height: 1.45;">“</span><span style="line-height: 1.45;">尿布</span><span style="line-height: 1.45;">”</span><span style="line-height: 1.45;">的所有记录，我们的规则对其中</span><span style="line-height: 1.45;">7 5 %</span><span style="line-height: 1.45;">的记录都适用。</span></div><div style="text-align: left;"><div><span><font style="font-size: 16pt; color: rgb(173, 0, 0);"><b>支持度和可信度是用来量化关联分析是否成功的方法。</b></font></span></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><font style="font-size: 18pt; color: rgb(28, 51, 135);">Apriori原理</font></div><div style="text-align: left;"><font style="font-size: 14pt;">Apriori<span style="line-height: 1.45;">原理可以帮我们减</span><span style="line-height: 1.45;">少<font style="color: rgb(173, 0, 0);">可能</font>感兴趣的项集。</span></font></div><div style="text-align: left;"><font style="font-size: 12pt; color: rgb(173, 0, 0);"><b><span>Apriori</span><span>原理是说如果某个项集是频繁的，那么它的所有子集也是频繁的。</span></b></font></div><div style="min-height: 15pt; text-align: left;"><span>对于图</span><span>11-2</span><span>给出的例子，这意味着如果</span><span>{0</span><span>，</span><span>1}</span><span>是频繁的，那么</span><span>{0}</span><span>、</span><span>{1}</span><span>也一定是频繁的。这个原理</span></div><div style="min-height: 12pt; text-align: left;">直观上并没有什么帮助，但是如果反过来看就有用了，<font color="#AD0000" style="font-size: 12pt;"><b>也就是说如果一个项集是非频繁集，那么</b></font><b style="font-size: 12pt; color: rgb(173, 0, 0); line-height: 1.45;">它的所有超集也是非频繁的。</b></div><div style="text-align: left;"><div><img src="无监督学习_files/Image [5].png" type="image/png" data-filename="Image.png"/></div></div><div style="text-align: left;"><div><br/></div></div><div style="text-align: left;"><div><br/></div></div><div style="text-align: left;"><div><br/></div></div><div style="text-align: left;"><div><font style="font-size: 18pt; color: rgb(28, 51, 135);"><span>使用</span><span>Apriori</span><span>算法来发现频繁集</span></font></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><font style="font-size: 12pt; color: rgb(173, 0, 0);"><b>参数：最小支持度，数据集</b></font></div><div style="text-align: left;"><span style="line-height: 1.45;"><span>    <span>    </span></span>首先会生成所有单个物品的项集列表，查看哪些项集满足最小支持度要求，不满足的除去，剩下的项两两组合，检查、三三组合、检查。</span></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><div><span><font style="font-size: 18pt; color: rgb(28, 51, 135);">从频繁项集中挖掘关联规则</font></span></div></div><div style="text-align: left;"><div><img src="无监督学习_files/Image [6].png" type="image/png" data-filename="Image.png"/></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><div><font color="#1C3387" style="font-size: 18pt;"><span>示例：发现国会投票中的模式</span></font></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><div><span><font style="font-size: 18pt; color: rgb(28, 51, 135);">示例：发现毒蘑菇的相似特征</font></span></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: center;"><font style="font-size: 24pt; color: rgb(28, 51, 135);"><b>使用FP-growth算法来高效发现频繁项集</b></font></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><font style="font-size: 14pt; color: rgb(173, 0, 0);">FP-growth发现频繁项集的基本过程：</font></div><div style="text-align: left;"><ol><li><font style="font-size: 14pt;">构建FP树</font></li><li><font style="font-size: 14pt;">从FP树中挖掘频繁项集</font></li></ol></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><font color="#1C3387" style="font-size: 18pt;">FP树：用于编码数据集的有效方式</font></div><div style="text-align: left;"><div><font style="font-size: 18pt; color: rgb(28, 51, 135);"><img src="无监督学习_files/Image [7].png" type="image/png" data-filename="Image.png" style="font-size: 18pt; color: rgb(28, 51, 135);"/></font></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><span><span>    <span>    </span></span>同搜索树不同的是，一个元素项可以在一棵FP</span><span>树中出现多次。FP</span><span>树会存储项集的出现频率，</span></div><div style="min-height: 12pt; text-align: left;"><span>而每个项集会以路径的方式存储在树中。存在相似元素的集合会共享树的一部分。只有当集合之</span></div><div style="min-height: 12pt; text-align: left;"><span>间完全不同时，树才会分叉。树节点上给出集合中的单个元素及其在序列中的出现次数，路径</span></div><div style="min-height: 12pt; text-align: left;"><span>会给出该序列的出现次数。</span></div><div style="min-height: 15pt; text-align: left;"><span>    <span>    </span></span><font style="color: rgb(173, 0, 0);"><b><font style="font-size: 12pt;">相似项之间的链接即节点链接</font><font style="font-size: 12pt;">(node link)</font></b></font>,用于快速发现相似项的位置。<span style="line-height: 1.45;">表</span><span style="line-height: 1.45;">12-1</span><span style="line-height: 1.45;">给出了用于生成图</span><span style="line-height: 1.45;">12-1</span><span style="line-height: 1.45;">中所示FP</span><span style="line-height: 1.45;">树的数据。</span></div><div style="text-align: left;"><div><img src="无监督学习_files/Image [8].png" type="image/png" data-filename="Image.png"/></div></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><font style="font-size: 18pt; color: rgb(28, 51, 135);">在Twitter源中发现一些共现词</font></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><font color="#1C3387" style="font-size: 18pt;">从新闻网站点击流中挖掘</font></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div style="text-align: left;"><br/></div><div><br/></div><div><br/></div><div><br/></div><div><br/></div><div><br/></div></span>
</div></body></html> 